Compression de structure XML pour la recherche d'information structurée
نویسنده
چکیده
RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’information structurée, puis nous proposons une méthode de compression des données de cette représentation. Nous présentons les résultats d’expérimentations sur la collection Wikipedia utilisée dans les campagnes INEX 2006 et 2007 (5,8 giga-octet, 659 388 documents) en terme d’efficience en espace et en temps.
منابع مشابه
Apprentissage d'ordonnancements en recherche d'information structurée
RÉSUMÉ. Nous présentons un modèle d’apprentissage pour la Recherche d’Information Structurée qui ajuste automatiquement ses paramètres grâce à un ensemble d’exemples étiquetés composé de requêtes et de jugements de pertinence sur un ensemble de parties de documents. Notre modèle améliore la performance d’un système de base de Recherche d’Information en optimisant un critère de coût d’ordonnance...
متن کاملRecherche d'information structurée. Vers un modèle possibiliste pour la recherche d'information dans des documents structurés
In this paper, we are interested in Information Retrieval in structured document in XML. For this, we present a model for the structured information retrieval, based on the possibilistic networks. The document elements and elements terms relations are modelled by measures of possibility and necessity. In this model, the user's request starts a process of propagation to recover the documents or ...
متن کاملModèle de recherche d'information structurée basé sur la relaxation de requêtes
RÉSUMÉ. Cet article présente un modèle pour la recherche d’information sur des documents XML basée sur la comparaison d’arbres, en utilisant le principe de relaxation de requêtes. Les requêtes et les documents sont représentés par des arbres étendus. Un arbre étendu est construit à partir de l’arbre original, avec la pondération des liens virtuels entre chaque nœud et ses descendants indirects,...
متن کاملRecherche approchée d'information dans une base de documents semi-structurés
RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...
متن کاملVers une stratégie de recherche d'information structurée basée sur lacomparaison d'arbres
This paper presents a statistical approach to tree to tree correction adapted to structural information retrieval. It consits on indexing content and structure and use the both index in an information retrieval process. Retrieval process uses extended document and query structures and returns some fragments that follow the content and structure of the original query. MOTS-CLÉS : recherche d’inf...
متن کامل